Numérisation et codage des caractères de livres anciens

نویسنده

  • J. André
چکیده

RÉSUMÉ. La numérisation des livres anciens n’a pas été abordée aussi bien que celle des ouvrages manuscrits anciens, du moins en ce qui concerne les caractères. Or, avant de faire de la reconnaissance de caractères, encore faut-il avoir un certaine connaissance de ceux-ci. Par ailleurs, restituer un ouvrage avec ses caractéristiques typographiques peut induire des recherches qui sinon seraient impossibles. Nous présentons alors le projet Cassetin dont le but est de faire un inventaire des caractères d’imprimerie utilisés depuis le XVe siècle et de proposer une normalisation de leur codage (sous forme d’entités ou de caractères au sens d’Unicode) de façon à rendre portables les sorties d’OCR.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Transcription et codage des imprimés de la Renaissance. Réflexions pour un inventaire des caractères anciens

HAL is a multi-disciplinary open access archive for the deposit and dissemination of scientific research documents, whether they are published or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers. L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau...

متن کامل

Enjeux de la normalisation internationale de la numérisation des écritures et langue française, appropriation d'Unicode

RÉSUMÉ. La langue française a toujours évolué dans des environnements plurilingues, en France et dans le monde. Être en contact avec d’autres langues n’est pas une situation linguistique exceptionnelle mais le français permet à un large ensemble de personnes de procéder à des échanges culturels, économiques et politiques internationaux. De ce fait le français est une langue de réseau. Le standa...

متن کامل

L'alignement des documents médiévaux

RÉSUMÉ. Le but de l’alignement des textes est la mise en correspondance des sous-parties similaires de deux ou plusieurs traductions ou versions d’un même écrit. La plupart des méthodes utilisées dans la technique d’alignement reposent sur l’analyse statistique des fréquences de mots ou de caractères, ou sur la cooccurrence des chaînes que ceux-ci constituent. Afin d’en améliorer l’efficacité, ...

متن کامل

Mesure de la netteté sur une image seule dans des documents anciens

This article presents some way to do quality control after digitization, specially out of focus problem. We will enumerate different point of view to analyse and to estimate this information. To validate descriptors, we suggest to blur any picture and to compute blur estimation in order to evaluate precision. After that, we propose to combinate descriptors by machine learning. MOTS-CLÉS : docum...

متن کامل

Boosting d’un pool d’apprenants faibles

Nous considérons ici des problèmes d’apprentissage où les données sont présentées à l’aide de caractéristiques fortement hétérogènes, par exemple, une base de personnes où chaque individu est décrit par son nom (une chaı̂ne de caractères), sa photo (une image), un enregistrement de sa voix (du son) et ses mensurations (des réels). Il n’existe aucun algorithme capable d’apprendre en travaillant s...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:
  • Document Numérique

دوره 7  شماره 

صفحات  -

تاریخ انتشار 2003